\chapter{特征值}

%%%%%%%%%%%%%----------特征值和特征向量----------%%%%%%%%%%%%%
\section{特征值和特征向量}

在这一章及下一章中, 我们主要研究有限维线性空间上的线性变换. 我们特别关心这样一个问题: 对给定线性空间 \(V\) 上的线性变换,能否找到 \(V\) 的一组基, 使得该线性变换在这组基下的表示矩阵具有特别简单的形状. 比如, 若我们能找到 \(V\) 的一组基 \(\left\{ {{e}_{1},{e}_{2},\cdots ,{e}_{n}}\right\}\) ,使线性变换 \(\varphi\) 在这组基下的表示矩阵为对角阵:
\[\begin{pmatrix}
    {a}_{1} & & & \\ & {a}_{2} & & \\ & & \ddots & \\ & & & {a}_{n}
\end{pmatrix}\]
即有
\[(\varphi(e_1),\varphi(e_2),\cdots ,\varphi(e_n))) = (e_1,e_2,\cdots ,e_n)\begin{pmatrix}
    {a}_{1} & & & \\ & {a}_{2} & & \\ & & \ddots & \\ & & & {a}_{n}
\end{pmatrix}.\]
也就是说有$\varphi(e_i) = a_i e_i$.


这时,若 \(\mathbf{\alpha } = {k}_{1}{e}_{1} + {k}_{2}{e}_{2} + \cdots + {k}_{n}{e}_{n}\) ,则
\[
\varphi \left( \mathbf{\alpha }\right) = {a}_{1}{k}_{1}{e}_{1} + {a}_{2}{k}_{2}{e}_{2} + \cdots + {a}_{n}{k}_{n}{e}_{n}.
\]


线性变换 \(\varphi\) 的表达式非常简单. 线性变换 \(\varphi\) 的许多性质也变得一目了然. 如若 \({a}_{1},{a}_{2},\cdots ,{a}_{r}\) 不为零,而 \({a}_{r + 1} = \cdots = {a}_{n} = 0\) ,则 \(\varphi\) 的秩为 \(r\) ,且 \(\operatorname{Im}\varphi\) 就是由 \(\left\{ {{e}_{1},{e}_{2},\cdots ,{e}_{r}}\right\}\) 生成的子空间,而 \(\operatorname{Ker}\varphi\) 则是由 \(\left\{ {{e}_{r + 1},\cdots ,{e}_{n}}\right\}\) 生成的子空间, 等等.


由第四章我们已经知道, 一个线性变换在不同基下的表示矩阵是相似的. 因此用矩阵的语言重述上面提到的问题就是: 能否找到一类特别简单的矩阵, 使任一矩阵与这类矩阵中的某一个相似? 比如, 我们可以问: 是否所有的矩阵都相似于对角阵? 若不然, 哪一类矩阵可以相似于对角阵?


\begin{definition}
    设 \(\varphi\) 是数域 \(\mathbb{K}\) 上的线性空间 \(V\) 的线性变换,若 \(\lambda \in \mathbb{K},\mathbf{e} \in V\) 且 \(\mathbf{e} \neq \mathbf{0}\) ,使
    \[
    \varphi \left( \mathbf{e}\right) = \lambda \mathbf{e}
    \]
    则称 \(\lambda\) 是线性变换 \(\varphi\) 的一个特征值,向量 \(\mathbf{e}\) 称为 \(\varphi\) 关于特征值 \(\lambda\) 的特征向量.
\end{definition}

令\[V_{\lambda} = \{v\in V|\varphi(v)=\lambda v\} = \{\lambda\text{的特征向量}\}\cup \{0\},\]
容易验证$V_{\lambda}$是 $ V $上的子空间,也是$ \varphi $-不变子空间,称为特征值$ \lambda $的特征子空间.



现在设 \(\varphi\) 在某组基下的表示矩阵为 \(\mathbf{A}\in \mathcal{M}_n({\mathbb{K}})\) ,向量 \({x}\) 在这组基下可表示为一个列向量 \(\mathbf{\alpha }\) .则$ \varphi(x) $的坐标向量为\(\mathbf{A}\mathbf{\alpha }\) .于是有
\[\varphi(x) = \lambda x\Leftrightarrow \mathbf{A}\mathbf{\alpha } = \lambda \mathbf{\alpha }.\]  

下面给出矩阵特征值的定义:
\begin{definition}
    设 \(\mathbf{A}\in \mathcal{M}_n({\mathbb{K}})\) ,若存在$ \lambda\in \mathbb{K} ,0\neq\alpha\in \mathbb{K}^n$使得
    \[\mathbf{A}\alpha = \lambda \alpha,\]
    则称 \(\lambda \) 为 \(\mathbf{A}\) 的一个特征值, $ \alpha $为$ \mathbf{A} $属于特征值$ \lambda $的特征向量.

    令$ V_{\lambda} $为线性方程组$ (\lambda \mathbf{I}_n-\mathbf{A})x = 0 $的解空间,称为属于特征值$ \lambda $的特征子空间.
\end{definition}


设$ \lambda_0 $是$ A $的特征值 $ \Leftrightarrow $ 存在$ 0\neq\alpha\in \mathbb{K}^n $使得$ A \alpha = \lambda_0 \alpha $.
\begin{align*}
    & \Leftrightarrow \text{线性方程组}(\lambda_0 I -A)x = 0\text{存在非零解}\\
    & \Leftrightarrow \lambda_0 I-A\text{不是满秩阵,即为奇异阵}\\
    &\Leftrightarrow |\lambda_0I-A|=0\\
    & \Leftrightarrow \lambda_0\text{是方程}|\lambda I_n-A|=0\text{的解(根)}.
\end{align*}


设$ A = (a_{ij})_{n\times n} $,则
\[|\lambda I_n - A| = \begin{vmatrix}
    \lambda - a_{11} & -a_{12} & \cdots & -a_{1n}\\
    -a_{21} & \lambda - a_{22} & \cdots & -a_{2n}\\
    \vdots & \vdots & \ddots & \vdots\\
    -a_{n1} & -a_{n2} & \cdots & \lambda - a_{nn}
\end{vmatrix}\]
是关于$ \lambda $的$ n $次首一多项式.


\begin{definition}
    设 \(\mathbf{A}\) 是 \(n\) 阶方阵,称 \(\left| {\lambda {\mathbf{I}}_{n} - \mathbf{A}}\right|\) 为 \(\mathbf{A}\) 的特征多项式.
\end{definition}


由上面的讨论可得矩阵 \(\mathbf{A}\) 的特征值就是它的特征多项式的根. 读者会提出这样的问题: 既然同一个线性变换在不同基下的表示矩阵是相似的, 那么相似矩阵是否有相同的特征值? 回答是肯定的, 这就是下面的引理.


\begin{lemma}\label{lemma:6.1.1}
    相似矩阵有相同的特征多项式,从而有相同的特征值(计重数).
\end{lemma}
\begin{proof}
    设$ B = P^{-1}AP $,$ P $为非奇异阵.
    \begin{align*}
        |\lambda I_n -B|&=|\lambda I_n-P^{-1}AP| = |P^{-1}(\lambda I_n-A)P|\\
        &=|P^{-1}||\lambda I_n -A||P|\\
        &= |\lambda I_n -A|.
    \end{align*}
\end{proof}

\begin{definition}
    设$ \varphi \in \mathcal{L}(V_{\mathbb{K}}^n) $,任取一组基下的表示矩阵为$ A $,则$ \varphi $的特征多项式定义为$ |\lambda I_n -A| $(由引理\ref{lemma:6.1.1}可知定义不依赖于基或表示矩阵的选取),记为$ |\lambda I_V - \varphi| $.
\end{definition}
\begin{note}
    $ I_V $为$ V $上的恒等变换.
\end{note}


设
\begin{align*}
    \left| {\lambda {\mathbf{I}}_{n} - \mathbf{A}}\right| &= {\lambda }^{n} + {a}_{1}{\lambda }^{n - 1} + \cdots + {a}_{n - 1}\lambda + {a}_{n}\\
    & = \left( {\lambda - {\lambda }_{1}}\right) \left( {\lambda - {\lambda }_{2}}\right) \cdots \left( {\lambda - {\lambda }_{n}}\right) .
\end{align*}


\begin{lemma}
    设$ A $的特征值为$ \lambda_1,\lambda_2,\cdots,\lambda_n $,则
    \[\lambda_1+\lambda_2+\cdots+\lambda_n = \mathrm{tr} A,\lambda_1\lambda_2\cdots\lambda_n = \det A.\]
\end{lemma}
\begin{proof}
    设$ |\lambda I_n -A| = \lambda^n + a_1\lambda^{n-1} + \cdots + a_n $,于是可知
    \[a_1 = -(a_{11}+a_{22}+\cdots+a_{nn}) = -\mathrm{tr} A,\]
    令$ \lambda = 0 $可得,$ |-A| = (-1)^n|A| =a_n  $.

    由 Vieta 定理知 \({\lambda }_{1} + {\lambda }_{2} + \cdots + {\lambda }_{n} = - {a}_{1},{\lambda }_{1}{\lambda }_{2}\cdots {\lambda }_{n} = {\left( -1\right) }^{n}{a}_{n} = |A|\) .
\end{proof}

\begin{note}
\[\sum_{1\leq i_1<\cdots<i_r\leq n}\lambda_{i_1}\cdots\lambda_{i_r} = \sum_{1\leq i_1<\cdots<i_r\leq n} A\begin{pmatrix}
    i_1 & i_2 & \cdots & i_r\\
    i_1 & i_2 & \cdots & i_r
\end{pmatrix}\]
为$ A $的所有$ r $阶主子式之和.
\end{note}



\begin{corollary}
    设$ A\in \mathcal{M}_n(\mathbb{K}) $,则$ A $非异$ \Leftrightarrow A $的特征值全不为零.
\end{corollary}
\begin{proof}
    由上述引理可知,$ |A| = \lambda_1\lambda_2\cdots\lambda_n $,于是结论成立.
\end{proof}


\fbox{求特征值,特征向量的方法}

\begin{enumerate}[(1)]
    \item 写出$ A $的特征矩阵$ \lambda I_n -A $,求出特征多项式$ |\lambda I_n -A| $的根,即为特征值$ \lambda_1,\lambda_2,\cdots,\lambda_n $;
    \item 对每个特征值$ \lambda_i $,求解$ (\lambda_i I_n-A)x=0 $,得到的非零解即为特征向量.
\end{enumerate}


\begin{example}
    设 \(\mathbf{A}\) 是一个上三角阵:

    \[
    \left( \begin{matrix} {a}_{11} & {a}_{12} & \cdots & {a}_{1n} \\ 0 & {a}_{22} & \cdots & {a}_{2n} \\ \vdots & \vdots &\ddots & \vdots \\ 0 & 0 & \cdots & {a}_{nn} \end{matrix}\right)
    \]

    求 \(\mathbf{A}\) 的特征值.
\end{example}
\begin{solution}
    \(\left| {\lambda {\mathbf{I}}_{n} - \mathbf{A}}\right|\) 是一个上三角行列式,因此

    \[
    \left| {\lambda {\mathbf{I}}_{n} - \mathbf{A}}\right| = \left( {\lambda - {a}_{11}}\right) \left( {\lambda - {a}_{22}}\right) \cdots \left( {\lambda - {a}_{nn}}\right) ,
    \]

    即 \(\mathbf{A}\) 的特征值等于 \(\mathbf{A}\) 主对角线上的元素 \({a}_{11},{a}_{22},\cdots ,{a}_{nn}\) . 对下三角阵也有类似的结论.    
\end{solution}



\begin{example}
    求下列 \(3 \times 3\) 矩阵的特征值与特征向量:

    \[
    \mathbf{A} = \left( \begin{matrix} 3 & 1 & - 1 \\ 2 & 2 & - 1 \\ 2 & 2 & 0 \end{matrix}\right)
    \]
\end{example}
\begin{solution}
\(\mathbf{A}\) 的特征多项式为
\[\begin{vmatrix}
    \lambda - 3 & - 1 & 1 \\ - 2 & \lambda - 2 & 1 \\ - 2 & - 2 & \lambda
\end{vmatrix} ={\lambda }^{3} - 5{\lambda }^{2} + {8\lambda } - 4 = \left( {\lambda - 1}\right) {\left( \lambda - 2\right) }^{2},\]
因此 \(\mathbf{A}\) 的特征值为 1(1重),2(2重) .

当$ \lambda = 1 $时,特征多项式的系数矩阵为
\[\begin{pmatrix}
    -2 & -1 &1\\
    -2 & -1 & 1\\
    -2 & -2 & 1
\end{pmatrix}  \rightarrow 
\begin{pmatrix}
1 & 0 &-\frac{1}{2}\\
0 & 1& 0\\
0& 0& 0
\end{pmatrix}
\]
基础解系为
\[ \xi_1 = \begin{pmatrix}
   1\\
   0\\
   2 
\end{pmatrix} \]

当$ \lambda = 2 $时,特征多项式的系数矩阵为
\[\begin{pmatrix}
    -1&-1&1\\
    -2&0&1\\
    -2&-2&2
\end{pmatrix}  \rightarrow 
\begin{pmatrix}
1 & 0 &-\frac{1}{2}\\
0 & 1& -\frac{1}{2}\\
0& 0& 0
\end{pmatrix}
\]
基础解系为
\[\xi_2 = \begin{pmatrix}
1\\
1\\
2
\end{pmatrix}
\]

故$ \lambda =1$的特征向量为$ c_1\xi_1,c_1\neq 0 $;$ \lambda =2 $的特征向量为$ c_2\xi_2,c_2\neq 0$.
\end{solution} 



\begin{example}
求下列矩阵的特征值:
\[
\mathbf{A} = \left( \begin{matrix} 0 & - 1 \\ 1 & 0 \end{matrix}\right)
\]
\end{example}
\begin{solution}
因为
\[\begin{vmatrix}
    \lambda & 1 \\ - 1 & \lambda 
\end{vmatrix}= {\lambda }^{2} + 1\]
所以 \(\mathbf{A}\) 的特征值为 \(\mathrm{i}, - \mathrm{i}\) .
\end{solution}
上例表明, 即使是有理数域上的矩阵, 其特征值有可能是虚数. 这就是说, 对数域 \(\mathbb{K}\) 上的矩阵 (或相应的线性变换),有可能在 \(\mathbb{K}\) 中不存在特征值. 但是对复数域来说,任一 \(n\) 阶方阵总存在特征值. 因此在考虑特征值问题时,我们常常放在复数域里讨论.


我们也看到, 一个上三角 (或下三角) 阵的特征值都在主对角线上. 如果我们能把一个矩阵相似地变到一个上三角阵, 那么它的特征值也就一目了然了. 但是,由于一个矩阵的特征值有可能是虚数,因此数域 \(\mathbb{K}\) 上的矩阵未必能相似于一个上三角阵. 然而复数域 \(\mathbb{C}\) 上的矩阵,它们总相似于上三角 (或下三角) 阵.


\begin{theorem}\label{theorem:6.1.1}
    任一复方阵必 (复) 相似于一上三角阵.
\end{theorem}
\begin{proof}
    设$ A\in \mathcal{M}_n(\mathbb{C}) $,对阶数$ n $进行归纳.当$ n=1 $时,结论显然成立.现设对$ n-1 $阶矩阵成立,下证$ n $阶的情形.

    由代数基本定理知任取$ A $的一个特征值$ \lambda_1\in \mathbb{C} $,特征向量$ 0\neq \alpha_1 \in \mathbb{C}^n $,即
    \[A\alpha_1 = \lambda_1\alpha_1.\]
    由基扩张定理知$ \{\alpha_1\} $可扩充为$ \mathbb{C}^n $的一组基$ \{\alpha_1,\alpha_2,\cdots,\alpha_n\}  $.

    令$ P = (\alpha_1,\alpha_2,\cdots,\alpha_n)$,$ P $非奇异(满秩阵).
    \[AP = (A \alpha_1,A\alpha_2,\cdots,A\alpha_n) = (\alpha_1,\alpha_2,\cdots,\alpha_n)\begin{pmatrix}
        \lambda_1 & *\\
        O&A_{n-1}
    \end{pmatrix}\]
    即有\[P^{-1}AP = \begin{pmatrix}
        \lambda_1 & *\\
        O&A_{n-1}
    \end{pmatrix}.\]
    其中$ A_{n-1}\in \mathcal{M}_{n-1}(\mathbb{C}) $,由归纳假设知存在非异矩阵$ Q\in \mathcal{M}_{n-1}(\mathbb{C})$使得
    \[Q^{-1}A_{n-1}Q = \begin{pmatrix}
        \lambda_2 &*&\cdots&*\\
        0&\lambda_3&\cdots&*\\
        \vdots&\vdots&\ddots&\vdots\\
        0&0&\cdots&\lambda_n
    \end{pmatrix},\]
    令$ R = \begin{pmatrix}
        1 &O\\
        O&Q
    \end{pmatrix}$,则有
    \begin{align*}
        (PR)^{-1}A (PR) &= R^{-1}( P^{-1}AP)R\\
        &=\begin{pmatrix}
            1 &O\\
            O&Q^{-1}
        \end{pmatrix}\begin{pmatrix}
            \lambda_1 & *\\
            O&A_{n-1}
        \end{pmatrix}\begin{pmatrix}
            1 &O\\
            O&Q
        \end{pmatrix}\\
        &=\begin{pmatrix}
            \lambda_1&*&\cdots&*\\
            0&\lambda_2&\cdots&*\\
            \vdots &\vdots&\ddots&\vdots\\
            0&0&\cdots&\lambda_n
        \end{pmatrix}
    \end{align*}
    故存在非异阵$PR\in \mathcal{M}_n(\mathbb{C}) $使得$ A$相似于一个上三角阵.
\end{proof}



\begin{corollary}
    设$ A\in \mathcal{M}_n(\mathbb{K}) $的特征值全在$ \mathbb{K} $中,则存在$ P\in \mathcal{M}_n(\mathbb{K}) $非异阵,使得 
    \[P^{-1}AP = \begin{pmatrix}
        \lambda_1&*&\cdots&*\\
        0&\lambda_2&\cdots&*\\
        \vdots &\vdots&\ddots&\vdots\\
        0&0&\cdots&\lambda_n
    \end{pmatrix}.
\]
\end{corollary}
\begin{proof}
    设$ A\in \mathcal{M}_n(\mathbb{K}) $,对阶数$ n $进行归纳.当$ n=1 $时,结论显然成立.现设对$ n-1 $阶矩阵成立,下证$ n $阶的情形.

    由假设知可任取$ A $的一个特征值$ \lambda_1\in \mathbb{K} $,特征向量$ 0\neq \alpha_1 \in \mathbb{K}^n $,即
    \[A\alpha_1 = \lambda_1\alpha_1.\]
    由基扩张定理知$ \{\alpha_1\} $可扩充为$ \mathbb{K}^n $的一组基$ \{\alpha_1,\alpha_2,\cdots,\alpha_n\}  $.

    令$ P = (\alpha_1,\alpha_2,\cdots,\alpha_n)$,$ P $非奇异(满秩阵).
    \[AP = (A \alpha_1,A\alpha_2,\cdots,A\alpha_n) = (\alpha_1,\alpha_2,\cdots,\alpha_n)\begin{pmatrix}
        \lambda_1 & *\\
        O&A_{n-1}
    \end{pmatrix}\]
    即有\[P^{-1}AP = \begin{pmatrix}
        \lambda_1 & *\\
        O&A_{n-1}
    \end{pmatrix}.\]
    其中$ A_{n-1}\in \mathcal{M}_{n-1}(\mathbb{K}) $,由于 
    \[|\lambda I_n -A| = \begin{vmatrix}
        \lambda-\lambda_1 &*\\
        O&\lambda I_n-A_{n-1}
    \end{vmatrix} = (\lambda - \lambda_1)\begin{vmatrix}
        \lambda I_n -A_{n-1}
    \end{vmatrix}\]
    于是$ A_{n-1}$的特征值$ \lambda_2,\cdots,\lambda_n \in \mathbb{K} $.
    
    由归纳假设知存在非异矩阵$ Q\in \mathcal{M}_{n-1}(\mathbb{K})$使得
    \[Q^{-1}A_{n-1}Q = \begin{pmatrix}
        \lambda_2 &*&
        \cdots&*\\
        0&\lambda_3&\cdots&*\\
        \vdots&\vdots&\ddots&\vdots\\
        0&0&\cdots&\lambda_n
    \end{pmatrix},\]
    令$ R = \begin{pmatrix}
        1 &O\\
        O&Q
    \end{pmatrix}$,则有
    \begin{align*}
        (PR)^{-1}A (PR) &= R^{-1}( P^{-1}AP)R\\
        &=\begin{pmatrix}
            1 &O\\
            O&Q^{-1}
        \end{pmatrix}\begin{pmatrix}
            \lambda_1 & *\\
            O&A_{n-1}
        \end{pmatrix}\begin{pmatrix}
            1 &O\\
            O&Q
        \end{pmatrix}\\
        &=\begin{pmatrix}
            \lambda_1&*&\cdots&*\\
            0&\lambda_2&\cdots&*\\
            \vdots &\vdots&\ddots&\vdots\\
            0&0&\cdots&\lambda_n
        \end{pmatrix}
    \end{align*}
    故存在非异阵$PR\in \mathcal{M}_n(\mathbb{K}) $使得$ A$相似于一个上三角阵.
\end{proof}




首先,若 \(\mathbf{A}\) 是一个 \(n\) 阶矩阵, \(f\left( x\right) = {a}_{m}{x}^{m} + {a}_{m - 1}{x}^{m - 1} + \cdots + {a}_{1}x + {a}_{0}\) 是一个多项式,记
\[
f\left( \mathbf{A}\right) = {a}_{m}{\mathbf{A}}^{m} + {a}_{m - 1}{\mathbf{A}}^{m - 1} + \cdots + {a}_{1}\mathbf{A} + {a}_{0}{\mathbf{I}}_{n}.
\]
我们来考虑矩阵 \(\mathbf{A}\) 的特征值与矩阵 \(f\left( \mathbf{A}\right)\) 的特征值之间的关系.


\begin{align*}
    (P^{-1}AP)^m = P^{-1}A^mP
\end{align*}

\begin{align*}
    f(P^{-1}AP) &= a_m\left(P^{-1}AP \right)^m+a_{m-1}\left(P^{-1}AP \right)^{m-1}+\cdots+a_1\left(P^{-1}AP \right)+a_0P^{-1}I_nP\\ 
    &= a_mP^{-1}A^mP+a_{m-1}P^{-1}A^{m-1}P+\cdots+a_1P^{-1}AP+a_0P^{-1}I_nP\\
    &=P^{-1}\left(a_m A^m +a_{m-1}A^{m-1}+\cdots+a_1A+a_0I_n\right)P\\
    &= P^{-1}f(A)P 
\end{align*}

\[\left(P^{-1}AP\right)^{-1} = P^{-1}A^{-1}P.\]

\[\left(P^{-1}AP\right)^{*} = P^*A^*(P^{-1})^* = P^*A^*(P^*)^{-1}\]
 

\begin{proposition}
    设矩阵 \(\mathbf{A}\) 是 \(n\) 阶方阵, \({\lambda }_{1},{\lambda }_{2},\cdots ,{\lambda }_{n}\) 是 \(\mathbf{A}\) 的全部特征值, 又 \(f\left( x\right)\) 是一个多项式,则 \(f\left( {\lambda }_{1}\right) ,f\left( {\lambda }_{2}\right) ,\cdots ,f\left( {\lambda }_{n}\right)\) 是 \(f\left( \mathbf{A}\right)\) 的全部特征值.
\end{proposition}
\begin{proof}
因为任意一个 \(n\) 阶矩阵均 (复) 相似于上三角阵,可设
\[\mathbf{P}^{-1}\mathbf{A}\mathbf{P} = \begin{pmatrix}
    {\lambda }_{1} & * & \cdots & * \\ 0 & {\lambda }_{2} & \cdots & * \\ \vdots & \vdots &\ddots & \vdots \\ 0 & 0 & \cdots & {\lambda }_{n} 
\end{pmatrix}\]
因为上三角阵的和, 数乘及乘方仍是上三角阵, 经计算不难得到
\[
{\mathbf{P}}^{-1}f\left( \mathbf{A}\right) \mathbf{P} = f\left( {{\mathbf{P}}^{-1}\mathbf{A}\mathbf{P}}\right) = \begin{pmatrix} f\left( {\lambda }_{1}\right) & * & \cdots & * \\ 0 & f\left( {\lambda }_{2}\right) & \cdots & * \\ \vdots & \vdots & \ddots& \vdots \\ 0 & 0 & \cdots & f\left( {\lambda }_{n}\right) \end{pmatrix} .
\]
因此 \(f\left( \mathbf{A}\right)\) 的全部特征值为 \(f\left( {\lambda }_{1}\right) ,f\left( {\lambda }_{2}\right) ,\cdots ,f\left( {\lambda }_{n}\right)\) .
\end{proof}


\begin{proposition}\label{proposition:6.1.2}
    设 \(n\) 阶矩阵 \(\mathbf{A}\) 适合一个多项式 \(g\left( x\right)\) ,即 \(g\left( \mathbf{A}\right) = \mathbf{O}\) ,则 \(\mathbf{A}\) 的任一特征值 \(\lambda\) 也必适合 \(g\left( x\right)\) ,即 \(g\left( \lambda \right) = 0\) .
\end{proposition}
\begin{proof}
设 \(\mathbf{\alpha }\) 是 \(\mathbf{A}\) 属于特征值 \(\lambda\) 的特征向量,则有
\[A^m \alpha = \lambda ^m \alpha \]
经简单计算得
\[
    g\left( \mathbf{A}\right) \mathbf{\alpha } =g\left( \lambda \right) \mathbf{\alpha } =  \mathbf{0}.
\]

而 \(\mathbf{\alpha } \neq \mathbf{0}\) ,因此 \(g\left( \lambda \right) = 0\) .
\end{proof}


对可逆阵 \(\mathbf{A}\) ,其逆阵 \({\mathbf{A}}^{-1}\) 的特征值和 \(\mathbf{A}\) 的特征值有什么关系呢? 下面的命题回答了这个问题.

\begin{proposition}
    设 \(n\) 阶矩阵 \(\mathbf{A}\) 是可逆阵,且 \(\mathbf{A}\) 的全部特征值为 \({\lambda }_{1},{\lambda }_{2},\cdots ,{\lambda }_{n}\) , 则 \({\mathbf{A}}^{-1}\) 的全部特征值为 \({\lambda }_{1}^{-1},{\lambda }_{2}^{-1},\cdots ,{\lambda }_{n}^{-1}\) .
\end{proposition}
\begin{proof}
    首先注意到 \(\mathbf{A}\) 是可逆阵, \({\lambda }_{1}{\lambda }_{2}\cdots {\lambda }_{n} = \left| \mathbf{A}\right| \neq 0\) ,因此每个 \({\lambda }_{i} \neq 0\) (事实上, \(\mathbf{A}\) 可逆的充分必要条件是它的特征值全不为零).

    由上述定理知
    \[ \mathbf{P}^{-1}\mathbf{A}\mathbf{P} =\begin{pmatrix}
        \lambda_1&*&\cdots&*\\
        0&\lambda_2&\cdots&*\\
        \vdots &\vdots&\ddots&\vdots\\
        0&0&\cdots&\lambda_n
    \end{pmatrix}  \]

因为上三角阵的逆阵仍是上三角阵, 经计算不难得到
\[{\mathbf{P}}^{-1}{\mathbf{A}}^{-1}\mathbf{P} = {\left( {\mathbf{P}}^{-1}\mathbf{A}\mathbf{P}\right) }^{-1} =   \begin{pmatrix}
    {\lambda }_{1}^{-1} & * & \cdots & * \\ 0 & {\lambda }_{2}^{-1} & \cdots & * \\ \vdots & \vdots &\ddots & \vdots \\ 0 & 0 & \cdots & {\lambda }_{n}^{-1}
\end{pmatrix}\]
因此 \({\mathbf{A}}^{-1}\) 的全部特征值为 \({\lambda }_{1}^{-1},{\lambda }_{2}^{-1},\cdots ,{\lambda }_{n}^{-1}\) .
\end{proof}

\begin{proposition}
    设 $n$ 阶矩阵 $A$ 的全体特征值为 $\lambda_1, \lambda_2, \cdots, \lambda_n$, 求证: $A^*$ 的全体特征值为 $\prod\limits_{i\neq 1}\lambda_i$, $\prod\limits_{i\neq 2}\lambda_i$, $\cdots$, $\prod\limits_{i\neq n}\lambda_i$.
\end{proposition}
\begin{proof}
因为任一 $n$ 阶矩阵均相似于上三角矩阵, 故可设 
$$P^{-1}AP = \begin{pmatrix}
\lambda_1 & * & \cdots & * \\
0 & \lambda_2 & \cdots & * \\
\vdots & \vdots &  & \vdots \\
0 & 0 & \cdots & \lambda_n
\end{pmatrix}.$$

注意到上三角矩阵的伴随矩阵仍是上三角矩阵, 经计算可得
$$P^{-1}A^*P = P^*A^*(P^{-1})^* = (P^{-1}AP)^* = \begin{pmatrix}
\prod\limits_{i\neq 1}\lambda_i & * & \cdots & * \\
0 & \prod\limits_{i\neq 2}\lambda_i & \cdots & * \\
\vdots & \vdots &  & \vdots \\
0 & 0 & \cdots & \prod\limits_{i\neq n}\lambda_i
\end{pmatrix},$$

因此 $A^*$ 的全部特征值为 $\prod\limits_{i\neq 1}\lambda_i$, $\prod\limits_{i\neq 2}\lambda_i$, $\cdots$, $\prod\limits_{i\neq n}\lambda_i$. 
\end{proof}

\begin{note}
    上三角阵的伴随仍然是上三角阵,并且主对角线变为原来元素的伴随.

    例如$ A$为上三角阵,主对角线元素为$ a_{11},a_{22},\cdots ,a_{nn}$,则$ a_{ii}$的伴随为$$ a_{11}\cdots a_{i-1,i-1}a_{i+1,i+1}\cdots a_{nn}.$$
\end{note}




%%%%%%%%%%%%%%%%%----------对角化-----------%%%%%%%%%%%%%%%%%

\section{对角化}


\begin{definition}[可对角化]
    设$ \varphi\in \mathcal{L}(V^n_{\mathbb{K}})$,若$ \varphi$在某组基下的表示矩阵为对角阵,则称$ \varphi$可对角化.

    若$ A$相似于对角阵,则称$ A$可对角化.
\end{definition}



\begin{theorem}
    设$ V$为数域$ \mathbb{K}$上的$ n$维线性空间,$ \varphi\in \mathcal{L}(V)$,则$ \varphi$可对角化$ \Leftrightarrow$$ \varphi$有$ n$个线性无关的特征向量.
\end{theorem}
\begin{proof}
    必要性:设$ \varphi$可对角化,即存在$ V$的一组基$ \{e_1,e_2,\cdots ,e_n\}$使得$ \varphi$在该组基下的表示矩阵为对角阵$ \mathrm{diag}\{\lambda_1,\lambda_2,\cdots ,\lambda_n\}$.即有 
    \[(\varphi(e_1),\varphi(e_2),\cdots,\varphi(e_n))=(e_1, e_2, \cdots, e_n)\begin{pmatrix}
        \lambda_1&&&\\
        &\lambda_2&&\\
        &&\ddots&\\
        &&&\lambda_n
    \end{pmatrix}\]
    可以得到
    \[\varphi(e_1) = \lambda_1e_1,\varphi(e_2) = \lambda_2e_2,\cdots,\varphi(e_n) = \lambda_ne_n.\]
    因此$ \varphi$有$ n$个线性无关的特征向量.

    充分性:设$ \varphi$有$ n$个线性无关的特征向量$ e_1, e_2,\cdots ,e_n$,即$ \varphi(e_i) = \lambda_ie_i,\forall i=1,2,\cdots ,n$,并且$ \{e_1,e_2,\cdots ,e_n\}$是$ V$的一组基.

    于是有
    \[(\varphi(e_1),\varphi(e_2),\cdots,\varphi(e_n))=(e_1, e_2, \cdots, e_n)\begin{pmatrix}
        \lambda_1&&&\\
        &\lambda_2&&\\
        &&\ddots&\\
        &&&\lambda_n
    \end{pmatrix}\]
    于是$ \varphi$的表示矩阵为对角阵,从而$ \varphi$ 可对角化.
\end{proof}




\begin{theorem}
    $ A\in \mathcal{M}_n(\mathbb{K})$可对角化$ \Leftrightarrow$ $ A$有$ n$个线性无关的特征向量.
\end{theorem}

那么是否任一 \(n\) 阶方阵均有 \(n\) 个线性无关的特征向量呢? 当然不是!


\begin{example}
矩阵

\[
\mathbf{A} = \left( \begin{array}{ll} 1 & 1 \\ 0 & 1 \end{array}\right)
\]

的特征值为 1,1 . 将 \(\lambda = 1\) 代入 \(\left( {\lambda {\mathbf{I}}_{2} - \mathbf{A}}\right) \mathbf{x} = \mathbf{0}\) ,求得 \(\mathbf{A}\) 的特征向量为

\[
k\left( \begin{array}{l} 1 \\ 0 \end{array}\right) ,k \neq 0,
\]

这表明 \(\mathbf{A}\) 只有一个线性无关的特征向量,因此 \(\mathbf{A}\) 不能对角化.
\end{example}
\begin{solution}
    \fbox{解法二}设$ A$可对角化,即存在非异阵$ P$使得
    \[ P^{-1}AP = \begin{pmatrix}
        1&0\\
        0&1
    \end{pmatrix} = I_2,\]
    即有
    \[A= PI_2P^{-1} = I_2,\]
引出矛盾!
\end{solution}



现在我们来讨论不同的特征值和它们相应的特征向量有什么关系. 设 \(n\) 维线性空间 \(V\) 上的线性变换 \(\varphi\) 有 \(k\) 个不同特征值: \({\lambda }_{1},{\lambda }_{2},\cdots ,{\lambda }_{k}\) ,相应的特征子空间为 \({V}_{1},{V}_{2},\cdots ,{V}_{k}\) .



\begin{theorem}
若 \({\lambda }_{1},{\lambda }_{2},\cdots ,{\lambda }_{k}\) 为数域 \(\mathbb{K}\) 上 \(n\) 维线性空间 \(V\) 上线性变换 \(\varphi\) 的不同的特征值, 则

\[
{V}_{1} + {V}_{2} + \cdots + {V}_{k} = {V}_{1} \oplus {V}_{2} \oplus \cdots \oplus {V}_{k}
\]
\end{theorem}
\begin{proof}
    对 \(k\) 用数学归纳法. 若 \(k = 1\) ,结论显然. 现设对 \(k - 1\) 个不同的特征值 \({\lambda }_{1},{\lambda }_{2},\cdots ,{\lambda }_{k - 1}\) ,它们相应的特征子空间 \({V}_{1},{V}_{2},\cdots ,{V}_{k - 1}\) 之和是直和. 我们要证明 \({V}_{1},{V}_{2},\cdots ,{V}_{k - 1},{V}_{k}\) 之和为直和,这只需证明:
\[
{V}_{k} \cap \left( {{V}_{1} + {V}_{2} + \cdots + {V}_{k - 1}}\right) = 0
\]
即可.

设 \(v \in {V}_{k} \cap \left( {{V}_{1} + {V}_{2} + \cdots + {V}_{k - 1}}\right)\) ,则
\[
v = {v}_{1} + {v}_{2} + \cdots + {v}_{k - 1}
\]
其中 \({v}_{i} \in {V}_{i}\left( {i = 1,2,\cdots ,k - 1}\right)\) . 
在上式两边作用 \(\mathbf{\varphi }\) ,得

\[
\varphi \left( v\right) = \varphi \left( {v}_{1}\right) + \varphi \left( {v}_{2}\right) + \cdots + \varphi \left( {v}_{k - 1}\right) .
\]

但 \({v}_{1},{v}_{2},\cdots ,{v}_{k - 1}\) 都是 \(\varphi\) 的特征向量或零向量,因此

\[
{\lambda }_{k}v = {\lambda }_{1}{v}_{1} + {\lambda }_{2}{v}_{2} + \cdots + {\lambda }_{k - 1}{v}_{k - 1}.
\]
同时有
\[
\mathbf{0} = \left( {{\lambda }_{k} - {\lambda }_{1}}\right) {v}_{1} + \left( {{\lambda }_{k} - {\lambda }_{2}}\right) {v}_{2} + \cdots + \left( {{\lambda }_{k} - {\lambda }_{k - 1}}\right) {v}_{k - 1}.
\]

由归纳假设, \({V}_{1} + {V}_{2} + \cdots + {V}_{k - 1}\) 是直和,因此 \(\left( {{\lambda }_{k} - {\lambda }_{i}}\right) {v}_{i} = \mathbf{0}\) ,而 \({\lambda }_{k} - {\lambda }_{i} \neq 0\) , 从而 \({v}_{i} = \mathbf{0}\left( {i = 1,2,\cdots ,k - 1}\right)\) . 
\end{proof}



\begin{corollary}
    线性变换 \(\varphi\) 属于不同特征值的特征向量必线性无关.
\end{corollary}
\begin{proof}
    设$ \lambda_1, \lambda_2, \cdots, \lambda_k$为$ \varphi$的不同特征值,$ v_1, v_2, \cdots, v_k$为对应的特征向量.令
    \[c_1v_1 + c_2v_2 + \cdots + c_kv_k = 0,\]
    其中$ c_iv_i\in V_i$,根据上述定理不同特征值的特征子空间为直和,从而
    \[c_iv_i = 0,\]
    由$ v_i\neq 0$ 可以得到$ c_i = 0$.即$ v_1, v_2, \cdots, v_k$ 线性无关.
\end{proof}



\begin{theorem}
    若 \(n\) 维线性空间 \(V\) 上的线性变换 \(\varphi\) 有 \(n\) 个不同的特征值,则 \(\varphi\) 必可对角化.
\end{theorem}
\begin{proof}
    设$ \varphi$的特征值为$ \lambda_1, \lambda_2, \cdots, \lambda_n$,对应的特征向量为$ v_1, v_2, \cdots, v_n$,由上述推论知该组特征向量线性无关.从而$ \varphi$有 $n$ 个线性无关的特征向量.故$ \varphi$ 可对角化.
\end{proof}
\begin{remark}
    是可对角化的充分条件.比如说纯量变换 \(\varphi = c{I}_{V}\) 当然可对角化,但 \(\varphi\) 的 \(n\) 个特征值都是 \(c\) .
\end{remark}

下面给出可对角化的第二个充分必要条件.
\begin{theorem}
设 \(\varphi\) 是 \(n\) 维线性空间 \(V\) 上的线性变换, \({\lambda }_{1},{\lambda }_{2},\cdots ,{\lambda }_{k}\) 是 \(\varphi\) 的全部不同的特征值, \({V}_{i}\left( {i = 1,2,\cdots ,k}\right)\) 是特征值 \({\lambda }_{i}\) 的特征子空间,则 \(\varphi\) 可对角化的充分必要条件是

\[
V = {V}_{1} \oplus {V}_{2} \oplus \cdots \oplus {V}_{k}
\]
\end{theorem}
\begin{proof}
先证充分性. 设

\[
V = {V}_{1} \oplus {V}_{2} \oplus \cdots \oplus {V}_{k}
\]

分别取 \({V}_{i}\) 的一组基 \(\left\{ {{e}_{i1},{e}_{i2},\cdots ,{e}_{i{t}_{i}}}\right\} \left( {i = 1,2,\cdots ,k}\right)\) ,则由定理 \ref{theorem:3.9.2}(4) 知这些向量拼成了 \(V\) 的一组基(直和的子空间的基拼成全空间的一组基),并且它们都是 \(\varphi\) 的特征向量. 因此 \(\varphi\) 有 \(n\) 个线性无关的特征向量,从而 \(\varphi\) 可对角化.

再证必要性.设 \(\varphi\) 可对角化,则 \(\varphi\) 有 \(n\) 个线性无关的特征向量 \(\left\{ {{e}_{1},{e}_{2},\cdots }\right.\) , \(\left. {e}_{n}\right\}\) ,它们构成了 \(V\) 的一组基. 不失一般性,可设这组基中前 \({t}_{1}\) 个是关于特征值 \({\lambda }_{1}\) 的特征向量; 接下去的 \({t}_{2}\) 个是关于特征值 \({\lambda }_{2}\) 的特征向量; \(\cdots\) ; 最后 \({t}_{k}\) 个是关于特征值 \({\lambda }_{k}\) 的特征向量. 对任一 \(\mathbf{\alpha } \in V\) ,设 
\[\mathbf{\alpha } = {a}_{1}{e}_{1} + {a}_{2}{e}_{2} + \cdots + {a}_{n}{e}_{n},\]
\ 则 \(\mathbf{\alpha }\) 可写成 \({V}_{1},{V}_{2},\cdots ,{V}_{k}\) 中向量之和,于是有
\[
V = {V}_{1} + {V}_{2} + \cdots + {V}_{k} = {V}_{1} \oplus {V}_{2} \oplus \cdots \oplus {V}_{k}
\]
\end{proof}



为了易于从计算的层面判定可对角化, 我们引入特征值的度数和重数的概念.



\begin{definition}
    设 \(\varphi\) 是 \(n\) 维线性空间 \(V\) 上的线性变换, \({\lambda }_{0}\) 是 \(\varphi\) 的一个特征值, \({V}_{0}\) 是属于 \({\lambda }_{0}\) 的特征子空间,称 \(\dim {V}_{0}\) 为 \({\lambda }_{0}\) 的度数或几何重数. \({\lambda }_{0}\) 作为 \(\varphi\) 的特征多项式根的重数称为 \({\lambda }_{0}\) 的重数或代数重数.
\end{definition}

特征值的几何重数和代数重数之间有如下的不等式关系.
\begin{theorem}
    设 \(\varphi\) 是 \(n\) 维线性空间 \(V\) 上的线性变换, \({\lambda }_{0}\) 是 \(\varphi\) 的一个特征值, 则 \({\lambda }_{0}\) 的几何重数总是小于等于 \({\lambda }_{0}\) 的代数重数.
\end{theorem}
\begin{proof}
    设$ t = \dim V_0$是$ \lambda_0$的几何重数,$ m$为$ \lambda_0$ 的代数重数.取$ V_0$的一组基为$ \{e_1,e_2,\cdots,e_t\}$,扩充为$ V$的一组基$ \{e_1,e_2,\cdots,e_t,e_{t+1},\cdots,e_n\}$.$ \varphi$在这组基下的表示矩阵为
    \[(\varphi(e_1), \varphi(e_2),\cdots,\varphi(e_t),\varphi(e_{t+1}),\cdots,\varphi(e_n))=(e_1, e_2, \cdots, e_{t}, e_{t+1}, \cdots, e_n)\begin{pmatrix}
        \lambda_0I_t&C\\
        O&B
    \end{pmatrix} \]
    记该表示矩阵为$ A$,故特征多项式为
    \begin{align*}
        |\lambda I_V - \varphi| = |\lambda I_n -A|=\begin{vmatrix}
            (\lambda-\lambda_0)I_t &-C\\
            O&\lambda I_{n-t}-B
        \end{vmatrix}=(\lambda - \lambda_0)^t|\lambda I_{n-t}-B|
    \end{align*}
    从而$ m\geq t$.
\end{proof}



\begin{definition}
    设 \(\varphi\) 是 \(n\) 维线性空间 \(V\) 上的线性变换,若 \(\varphi\) 的任一特征值的几何重数等于代数重数,则称 \(\varphi\) 有完全的特征向量系.
\end{definition}

下面我们给出可对角化的第三个充分必要条件.


\begin{theorem}
    设 \(\varphi\) 是 \(n\) 维线性空间 \(V\) 上的线性变换,则 \(\varphi\) 可对角化的充分必要条件是 \(\varphi\) 有完全的特征向量系.
\end{theorem}
\begin{proof}
     只需证明$ \varphi $有完全的特征向量系$ \Leftrightarrow V=V_1\oplus V_2\oplus\cdots\oplus V_k$.设$ \lambda_1, \lambda_2, \cdots, \lambda_k$是$ \varphi$的所有特征值, $V_i$是$ \lambda_i$的特征子空间.

     充分性: 设$ t_i = \dim V_i$为 $ \lambda_i$的几何重数,$ m_i$为$ \lambda_i$的代数重数.则一定有
     \[t_i\leq m_i, \forall 1\leq i\leq k.\]
     同时有
     \[\sum_{i=1}^{k}m_i = n,\]
     由于 
     \begin{align*}
        n = \dim V = \dim(V_1\oplus V_2\oplus\cdots\oplus V_k) = \sum_{i=1}^{k}\dim V_i
        = \sum_{i=1}^{k}t_i\leq \sum_{i=1}^{k}m_i = n
     \end{align*}
     从而有$ t_i = m_i, \forall 1\leq i\leq k$.故$ \varphi$有完全的特征向量系.

     必要性:设$ \varphi $有完全的特征向量系,
\[\dim(V_1\oplus V_2\oplus\cdots\oplus V_k) = \sum_{i=1}^{k}\dim V_i= \sum_{i=1}^{k}t_i= \sum_{i=1}^{k}m_i = n = \dim V,\]
于是有
\[V = V_1\oplus V_2\oplus\cdots\oplus V_k.\]
\end{proof}


\fbox{若已知$ A$可对角化,如何求出$ P$使得$ P^{-1}AP$为对角阵?}

令$ P = (\alpha_1,\alpha_2,\cdots,\alpha_n)$,$ P$非异$ \Leftrightarrow \alpha_1, \alpha_2, \cdots, \alpha_n$线性无关.

\[P^{-1}AP = \begin{pmatrix}
    \lambda_1 & & &\\
    & \lambda_2 & &\\
    & & \ddots &\\
    & & & \lambda_n
\end{pmatrix}\]
则有 
\[AP = P\begin{pmatrix}
    \lambda_1 & & &\\
    & \lambda_2 & &\\
    & & \ddots &\\
    & & & \lambda_n
\end{pmatrix} \]
即 
\[(A\alpha_1,A\alpha_2, \cdots, A\alpha_n) = (\lambda_1\alpha_1,\lambda_2\alpha_2, \cdots, \lambda_n\alpha_n).\]
即$ A \alpha_i = \lambda_i \alpha_i$,故$ \alpha_i$是属于$ \lambda_i$ 的特征向量.

从而$ P$的$ n$个列向量是$ A$的$ n$个线性无关的特征向量.

\begin{remark}
    这样的$ P$不唯一.另外,还要注意第 \(i\) 个列向量对应于第 \(i\) 个特征值.
\end{remark}


\begin{example}
判断矩阵 \(A\) 是否相似于对角阵,如是,求出可逆阵 \(P\) ,使 \({P}^{-1}{AP}\) 为对角阵:
\[A = \begin{pmatrix}
    1 & 0 & 0 \\
    - 2 & 5 & - 2 \\
    - 2 & 4 & - 1 
\end{pmatrix}\]
\end{example}
\begin{solution}
    \[|\lambda I-A| = \begin{pmatrix}
        \lambda - 1 & 0 & 0 \\
        - 2 & \lambda - 5 & 0 \\
        - 2 & 4 & \lambda - 1
    \end{pmatrix} = (\lambda-1)^2(\lambda-3),\]

    于是有特征值$\lambda_1 = 1 $,代数重数为2,下面计算几何重数,将$ \lambda_1 = 1$代入得到
    \[\begin{pmatrix}
        0 & 0 & 0 \\
        2&-4&2\\
        2&-4&2
    \end{pmatrix}\rightarrow \begin{pmatrix}
        1&-2&1\\
        0&0&0\\
        0&0&0
    \end{pmatrix}\]
    得到基础解系为
    \[\xi_1 = \begin{pmatrix}
        2\\
        1\\
        0
    \end{pmatrix},\xi_2 =\begin{pmatrix}
        -1\\
        0\\
        1
    \end{pmatrix}\]
    从而$ \lambda_1$的几何重数为2.

    特征值$ \lambda_2 = 3$,代数重数为1,则几何重数必为1\footnote{特征子空间为非零子空间,故几何重数必大于等于1;同时有几何重数小于代数重数(等于1),故几何重数等于1.}.
    将$ \lambda_2 = 3$代入得到
    \[\begin{pmatrix}
        2&0&0\\
        2&-2&2\\
        2&-4&4
    \end{pmatrix}\rightarrow \begin{pmatrix}
        1&0&0\\
        0&1&-1\\
        0&0&0
    \end{pmatrix}\]
    得到基础解系为
    \[\xi_3 = \begin{pmatrix}
        0\\
        1\\
        1
    \end{pmatrix}\]
    由于每个特征值的代数重数等于几何重数,故$ A$可以对角化.

    令
    $$ P = (\xi_1,\xi_2,\xi_3) = \begin{pmatrix}
        2&-1&0\\
        1&0&1\\
        0&1&1
    \end{pmatrix}$$
则有 \[P^{-1}AP = \begin{pmatrix}
    1 & &  \\
     &1&\\
     & &3
\end{pmatrix}.\]
\end{solution}

\fbox{求可对角化矩阵$ A$的幂$ A^m$.}

\[P^{-1}AP = B = \begin{pmatrix}
    \lambda_1 & & &\\
    & \lambda_2 & &\\
    & & \ddots &\\
    & & & \lambda_n
\end{pmatrix}\]
得到$ A= PBP^{-1}$.从而
\[A^m = ( PBP^{-1})^m = PB^mP^{-1} = P\begin{pmatrix}
    \lambda_1^m & & &\\
    & \lambda_2^m & &\\
    & & \ddots &\\
    & & & \lambda_n^m
\end{pmatrix}P^{-1}.\]

\begin{example}
    \[A = \begin{pmatrix}
       1 & 0 \\ 1 & - 2 
    \end{pmatrix}\]
    求$ A^m$.
\end{example}
\begin{solution}
    由于$ A$有两个不同的特征值,故一定可以对角化.

    求出$ P = \begin{pmatrix}
        3&0\\
        1&1
    \end{pmatrix}$使得$ P^{-1}AP = \begin{pmatrix}
        1&0\\
        0&-2
    \end{pmatrix}$.从而
    \[A^m = P \begin{pmatrix}
        1&0\\
        0&-2
    \end{pmatrix}P^{-1} = \begin{pmatrix}
        1&0\\
        \frac{1}{3}\left(1-(-2)^m\right)&(-2)^m
    \end{pmatrix}.\]
\end{solution}



\fbox{求$ A$的特征值$ \lambda_0$的几何重数.}

首先有
\[V_{\lambda_0} = \{v\in \mathbb{C}^n|A v = \lambda_0 v\}=\{(\lambda_0 I-A)x=0\text{的解空间}\}.\]
几何重数$ \dim V_{\lambda_0} = n -\mathrm{r}( \lambda_0 I-A)$.




%%%%%%%%%-----极小多项式与 Cayley-Hamilton 定理

\section{极小多项式与 Cayley-Hamilton 定理}



我们已经知道,数域 \(\mathbb{K}\) 上的全体 \(n \times n\) 矩阵组成了 \(\mathbb{K}\) 上的线性空间,其维数等于 \({n}^{2}\) . 因此下列 \({n}^{2} + 1\) 个矩阵必线性相关:

\[
{A}^{{n}^{2}},{A}^{{n}^{2} - 1},\cdots ,A,{\mathbf{I}}_{n}.
\]

也就是说,存在 \(\mathbb{K}\) 中不全为零的数 \({c}_{i}\left( {i = 0,1,2,\cdots ,{c}_{{n}^{2}}}\right)\) ,使得

\[
{c}_{{n}^{2}}{A}^{{n}^{2}} + {c}_{{n}^{2} - 1}{A}^{{n}^{2} - 1} + \cdots + {c}_{1}A + {c}_{0}{\mathbf{I}}_{n} = \mathbf{O}.
\]

这表明矩阵 \(A\) 适合数域 \(\mathbb{K}\) 上的一个多项式.

令$ g(x) = c_{n^2}x^{n^2}+ c_{n^2-1}x^{n^2-1} + \cdots + c_1x + c_0$，则$ g(x)\neq 0$且$ g(A) = 0$.

令$ S = \{f(x)\in \mathbb{K}[x]|f(x)\neq 0\text{且}f(A) = 0\}$,则$ S$一定非空(至少$ g(x)\in S$),且
$ k=\min \limits_{f(x)\in S} \deg f(x)$一定存在.

即$ \exists g(x)\in S,s.t. \deg g(x) = k$.将$ g(x)$首一化得到$ m(x)$,显然$ m(x)$有如下性质:
\begin{itemize}
    \item $ m(x)\neq 0$;
    \item $ m(A) = 0$;
    \item 首一;
    \item $ m(x)$次数最小.
\end{itemize}


\begin{definition}[极小多项式]
    若 \(n\) 阶矩阵 \(A\) (或 \(n\) 维线性空间 \(V\) 上的线性变换 \(\varphi\) ) 适合一个非零首一多项式 \(m\left( x\right)\) ,且 \(m\left( x\right)\) 是 \(A\left( {\text{或}\varphi }\right)\) 所适合的非零多项式中次数最小者, 则称 \(m\left( x\right)\) 是 \(A\left( {\text{或}\varphi }\right)\) 的一个极小多项式或最小多项式.
\end{definition}


\begin{lemma}
    设$ m(x)$是$ A$的极小多项式,$ \forall f(x)\in \mathbb{K}[x],f(A) = 0$,则有 
    \[m(x)\mid f(x).\]
\end{lemma}
\begin{proof}
    带余除法,$ f(x) = m(x)q(x)+r(x)$,其中
    \[\deg r(x) < \deg m(x).\]
    令$ x = A$,则有 
    \[f(A) = m(A)q(A)+r(A)\Rightarrow r(A) = 0, \]
    即$ A$适合$ r(x)$.

    反证法,设$ r(x)\neq 0$,则$ r(x)$是$ A$适合的非零多项式,且$ \deg r(x)< \deg m(x)$,这与$ m(x)$为极小多项式矛盾!从而$ r(x) = 0$,即 
    \[m(x) \mid f(x).\]
\end{proof}

从本节开始的说明我们知道, 极小多项式肯定是存在的, 它唯一吗?
\begin{proposition}
    $ A\in \mathcal{M}_n(\mathbb{K})$的极小多项式存在并且唯一.
\end{proposition}
\begin{proof}
    设$ m(x),g(x)$均为$ A$的极小多项式,根据上述引理有
    \[m(x)\mid g(x),g(x)\mid m(x).\]
    从而$ m(x)\sim g(x)$,即$ \exists c\neq 0$使得$ m(x) = cg(x).$由极小多项式的首一性知$ c = 1$,故 
    \[m(x) = g(x).\]
\end{proof}

\begin{example}
    纯量阵 \({A} = c{{I}}_{n}\) 的极小多项式 \(m\left( x\right) = x - c\) .
\end{example}

\begin{example}
    方阵$ A= \begin{pmatrix}
        0&1\\
        0&0
    \end{pmatrix}$,满足$ A^2 = O$.则$ A$适合多项式$ f(x) = x^2$.

    故$ A$的极小多项式$ m(x)\mid x^2$,故$ m(x)= x$或$ m(x) =x^2$.

    若$ m(x)=x\Rightarrow A=O$,故$ m(x)= x^2.$
\end{example}



\begin{proposition}
    相似矩阵有相同的极小多项式.
\end{proposition}
\begin{proof}
    设$ B=P^{-1}AP$,$ A$的极小多项式为$ m(x)$,$ B$ 的极小多项式为$ g(x)$.
    \[g(A) = g( PBP^{-1}) = P^{-1}g(B)P=O,\]
    故$ g(x)$是$ A$适合的的多项式,于是有 $ m(x)\mid g(x)$.同理可证$ g(x)\mid m(x)$.

    从而$ m(x)\sim g(x)$,即$ \exists c\neq 0$使得$ m(x) = cg(x).$由极小多项式的首一性知$ c = 1$,故 
    \[m(x) = g(x).\]
\end{proof}




\begin{proposition}
    设 \(A\) 是一个分块对角阵
    \[ A= \begin{pmatrix}
        {A}_{1} & & & \\ & {A}_{2} & & \\ & & \ddots & \\ & & & {A}_{k}
    \end{pmatrix}\]
    其中 \({A}_{i}\) 都是方阵,则 \(A\) 的极小多项式等于诸 \({A}_{i}\) 的极小多项式之最小公倍式.
\end{proposition}
\begin{proof}
    设$ A$的极小多项式为$ m(x)$,$ A_i$的极小多项式为$ m_i(x)$.

    令$ g(x) = [m_1(x), m_2(x), \cdots, m_k(x)]$,即证$ m(x) = g(x)$.

    首先有 $ m_i(x)\mid g(x)$,由于$ m_i(A_i) = 0$,所以$ g(A_i) = 0$.
    \[g(A) = \begin{pmatrix}
        g(A_1)&&&\\
        &g(A_2)&&\\
         & & \ddots&\\
         & & & g(A_k)
    \end{pmatrix} = 0\]
    于是$ m(x)\mid g(x)$.

    \[0 = m(A) = \begin{pmatrix}
        m(A_1)&&&\\
        &m(A_2)&&\\
         & & \ddots&\\
         & & & m(A_k)
    \end{pmatrix}\]
    从而$ m(A_i) = 0$,于是有
    \[m_i(x)\mid m(x),\forall 1\leq i\leq k.\]
    即$ m(x)$是$ m_i(x)$的公倍式.由于$ g(x)$是最小公倍式,得到$ g(x)\mid m(x)$.

    从而$ m(x)\sim g(x)$,存在$ 0\neq c$使得 
    \[
        m(x) = cg(x)
    \]
    由极小多项式的首一性知
    \[m(x)=g(x).\]
\end{proof}


\begin{example}\label{example:6.9}
    设$ A$ 的全体不同特征值为$ \lambda_1,\lambda_2,\cdots,\lambda_k$.证明:若$ A$可对角化,则极小多项式
    \[m(x) = (x-\lambda_1)( x-\lambda_2)\cdots (x-\lambda_k).\]
\end{example}
\begin{proof}
    由于$ A$可对角化,则存在非异阵$ P$使得 
    \[P^{-1}AP =\begin{pmatrix}
        \lambda_1I&&&\\
        & \lambda_2I&&\\
        && \ddots&\\
        &&& \lambda_kI
    \end{pmatrix} = B\]
    相似矩阵具有相同的特征值,故$ m(x) = m_B(x)\leftarrow B$的极小多项式.

    由于分块对角阵的极小多项式为诸个分块的对角阵的极小多项式的最小公倍式,故 
    \[m_B(x) = [x-\lambda_1,x-\lambda_2,\dots,x-\lambda_k] = (x-\lambda_1) \cdots (x-\lambda_k) \]
    即 
    \[m(x) = (x-\lambda_1) \cdots (x-\lambda_k) \]
\end{proof}

\begin{note}
    上述例子也告诉我们,若$ A$可对角化,则$ A$的极小多项式没有重根,其反命题也成立.即若$ A$的极小多项式没有重根,则$ A$可以对角化.给出了一个矩阵可对角化的另一充要条件.
    \[A\text{可对角化} \Leftrightarrow \text{A的极小多项式没有重根}.\]
    将在第七章给出证明.
\end{note}

从上面的例子可以看出, \(A\) 的特征值都是极小多项式的根. 事实上,这一结论对任意方阵都是成立的.

\begin{lemma}\label{lemma:6.3.2}
设 \(m\left( x\right)\) 是 \(n\) 阶矩阵 \(A\) 的极小多项式, \({\lambda }_{0}\) 是 \(A\) 的特征值,则

\[
\left( {x - {\lambda }_{0}}\right) \mid m\left( x\right)
\]
\end{lemma}
\begin{proof}
    由于$ m(A) = O$,由命题\ref{proposition:6.1.2}(若$ A$适合$ g(x)$,则$ A$的任一特征值$ \lambda_0$也适合$ g(x)$),于是有 $ m(\lambda_0) = 0$.由带余除法知
    \[(x-\lambda_0)\mid m(x).\]
\end{proof}



从本节开始的分析知道, \(n\) 阶矩阵的极小多项式的次数最多不超过 \({n}^{2}\) . 但是这个估计实在比较粗, 我们可以估计得更精确些.

为了研究一个矩阵可能适合的多项式,我们先看比较简单的情形. 


\begin{proposition}
    设 \(A\) 是一个上三角阵:
    \[A = \begin{pmatrix}
        {\lambda }_{1} & {a}_{12} & \cdots & {a}_{1n} \\ & {\lambda }_{2} & \cdots & {a}_{2n} \\ & & \ddots & \vdots \\ & & & {\lambda }_{n}
    \end{pmatrix},\]
    则 
    \[(A- \lambda_1I_n)(A - \lambda_2I_n)\cdots (A - \lambda_nI_n) = O,\]
    即$ A$适合其特征多项式$ f(\lambda) = (\lambda - \lambda_1)(\lambda - \lambda_2)\cdots (\lambda - \lambda_n)$.
\end{proposition}
\begin{proof}
    将 \(A\) 依次作用于标准单位列向量 \({e}_{1},{e}_{2},\cdots ,{e}_{n}\) ,可得 \(n\) 个等式:
\begin{align*}
    A{e}_{1} &= {\lambda }_{1}{e}_{1}\\
    A{e}_{2} &= {a}_{12}{e}_{1} + {\lambda }_{2}{e}_{2}\\
    &\cdots\cdots\\
    A{e}_{i} &= {a}_{1i}{e}_{1} + \cdots + {a}_{i - 1,i}{e}_{i - 1} + {\lambda }_{i}{e}_{i}\\
    &\cdots\cdots\\
    A{e}_{n} &= {a}_{1n}{e}_{1} + \cdots + {a}_{n - 1,n}{e}_{n - 1} + {\lambda }_{n}{e}_{n}.
\end{align*}
要证 \[(A- \lambda_1I_n)(A - \lambda_2I_n)\cdots (A - \lambda_nI_n) = O,\]
只需证明
 \[(A- \lambda_1I_n)(A - \lambda_2I_n)\cdots (A - \lambda_nI_n)e_i = O,\forall 1\leq i\leq n.\]
 只需证明
 \[(A- \lambda_1I_n)(A - \lambda_2I_n)\cdots (A - \lambda_iI_n)e_i = O,\forall 1\leq i\leq n.\]
 对$ i$进行归纳,当$ i=1$,有$ (A - \lambda_1I_n)e_1 = O$,结论成立.设$ <i$时结论成立.下证等于$ i$的情形.

 \[(A- \lambda_1I_n)(A - \lambda_2I_n)\cdots (A - \lambda_iI_n)e_i = (A - \lambda_1I_n)(A - \lambda_2I_n)\cdots (A - \lambda_{i-1}I_n)({a}_{1i}{e}_{1} + \cdots + {a}_{i - 1,i}{e}_{i - 1}),\]
 由归纳假设知上式等于$ O$.
\end{proof}





\begin{theorem}[Cayley-Hamilton (凯莱-哈密顿) 定理]
    设 \(A\) 是数域 \(\mathbb{K}\) 上的 \(n\) 阶矩阵, \(f\left( x\right)\) 是 \(A\) 的特征多项式,则 \(f\left( A\right) = \mathbf{O}\) .
\end{theorem}
\begin{proof}
    由定理\ref{theorem:6.1.1}(任一$ n$阶方阵必复相似于一个上三角阵)知存在非异阵$ P$使得 
    \[P^{-1} AP = \begin{pmatrix}
        \lambda_1&a_{12}&\cdots&a_{1n}\\
        & \lambda_2& \cdots&a_{2n}\\
        & & \ddots& \vdots\\
        & & & \lambda_n
    \end{pmatrix} = B,\]
    相似矩阵具有相同的特征多项式,故$ f(\lambda) = (\lambda-\lambda_1) \cdots (\lambda - \lambda_n) .$由上述命题知$ f(B) = O$.
    故\[f(A) = f(PBP^{-1})=Pf(B)P^{-1} = O.\]
\end{proof}


\begin{corollary}
    设$ A\in \mathcal{M}_n(\mathbb{K})$的特征多项式为$ f(\lambda)$,极小多项式为$ m( \lambda)$,则以下结论成立.
    \begin{enumerate}[(1)]
        \item $ m(\lambda)\mid f(\lambda)$,特别地,$ \deg m(\lambda)\leq n$;
        \item $ f(\lambda)$与$ m(\lambda)$有相同的根(不计重数);
        \item $ f(\lambda)\mid m(\lambda)^n$.
    \end{enumerate}
\end{corollary}
\begin{proof}
    \begin{enumerate}[(1)]
        \item 由Cayley-Hamilton定理知$ f(A)=O$,即$ A$适合$ f(\lambda)$,由极小多项式的性质知$ m(\lambda)\mid f(\lambda).$
        \item 由引理\ref{lemma:6.3.2}(任一特征值是极小多项式的根)以及(1)(极小多项式的根也是特征多项式的根)可知$ f(\lambda)$与$ m(\lambda)$有相同的根.
        \item $ f(\lambda) = (\lambda-\lambda_1)^{m_1}(\lambda-\lambda_2)^{m_2} \cdots (\lambda-\lambda_k)^{m_k}$,$ \lambda_1,\cdots, \lambda_k$为$ A$全体不同特征值.由(2)知 
        \[m(\lambda) = (\lambda-\lambda_1)^{r_1} (\lambda-\lambda_2)^{r_2}\cdots (\lambda-\lambda_k)^{r_k},\]
        其中$ r_1,r_2,\cdots,r_k\in 
        \mathbb{Z}^+$.

        注意到$ m_1+m_2+\cdots+m_k = n$, 从而 
        \[m_i\leq n\leq n\cdot r_i,\forall 1\leq i\leq k.\]
         于是 
         \[f(\lambda)\mid m(\lambda)^n.\]
    \end{enumerate}
\end{proof}



\begin{example}
    设$ A$有$ n$个不同的特征值$ \lambda_1,\cdots,\lambda_n$,则特征多项式与极小多项式为
    \[f(\lambda) = (\lambda -\lambda_1) \cdots (\lambda - \lambda_n),\]
    由于特征多项式与极小多项式有相同的根,故$ m(\lambda) = f(\lambda)$.
\end{example}

\begin{example}
    设$ A = cI_n,c\neq 0$,则$ f(\lambda) = (\lambda - c)^n,m(\lambda) = \lambda-c$.即 
    \[f(\lambda) = m(\lambda)^n.\]
\end{example}


由于矩阵与线性变换之间有一一对应关系, 因此我们有下述定理.

\begin{theorem}[Cayley-Hamilton 定理]
    设$ \varphi\in \mathcal{L}(V^n_{\mathbb{K}})$,特征多项式$ f(\lambda) = |\lambda I_V -\varphi|$,则 
    \[f(\varphi) = O.\]
\end{theorem}

下面给出Cayley-Hamilton (凯莱-哈密顿) 定理的另一证明.

以二阶矩阵为例,设 
\[A= \begin{pmatrix}
    a_{11}& a_{12}\\
     a_{21}& a_{22}
\end{pmatrix},\]
若$ A$不可对角化,则两个特征值相同,即特征多项式有重根.
\[|\lambda I_2-A| = \begin{vmatrix}
    \lambda - a_{11}& -a_{12}\\
    -a_{21}& \lambda - a_{22}
\end{vmatrix} = \lambda^2-(a_{11}+a_{22})\lambda+(a_{11}a_{22}-a_{12}a_{21})\]有重根.
即\[\Delta = (a_{11}+a_{22})^2-4(a_{11}a_{22}-a_{12}a_{21}) = 0.\]
记判别式为
\[f(a_{11}, a_{12}, a_{21}, a_{22})\]
构造如下的线性同构:

\begin{align*}
	\varphi: & \mathcal{M}_2(\mathbb{C}) \rightarrow \mathbb{C}^4 \\
	 &  \begin{pmatrix}
        a_{11}& a_{12}\\
         a_{21}& a_{22}
     \end{pmatrix}\mapsto \begin{pmatrix}
        a_{11}\\
        a_{12}\\
        a_{21}\\
        a_{22}
     \end{pmatrix}
\end{align*}

于是有$ A$不可对角化$ \Rightarrow f(a_{11}, a_{12}, a_{21}, a_{22}) = 0$.
故不可对角化的矩阵一定落在一个超平面\footnote{非零多项式的零点集.}上.

\begin{note}
    超平面上的矩阵不一定可对角化,但可对角化的矩阵一定在超平面上.

    超平面外的矩阵都是不可对角化的.
\end{note}

\begin{note}
    超平面为闭集,外面为开集.故对任意一个不可对角化的矩阵,一定能找到一列可对角化的矩阵去逼近.
\end{note}
对于$ n$阶方阵也是一样的,将判别式换为对应的$ n$次多项式的判别式即可.






\begin{proof}
    若$ A$可对角化,则存在非异阵$ P$使得
    \[P^{-1} AP =\begin{pmatrix}
        \lambda_1&&&\\
        & \lambda_2&&\\
        && \ddots&\\
        &&& \lambda_n
    \end{pmatrix} = B,\]
   特征多项式为 
   \[f(\lambda) = (\lambda - \lambda_1) \cdots (\lambda - \lambda_n).\]
   \[f(B) = \begin{pmatrix}
    0&&&\\
    &\lambda_2-\lambda_1&&\\
     &&\ddots&\\
     &&&\lambda_n-\lambda_1
   \end{pmatrix}\begin{pmatrix}
    \lambda_1-\lambda_2&&&\\
    &0&& \\
     &&\ddots&\\
     &&&\lambda_n-\lambda_2
   \end{pmatrix}\cdots \begin{pmatrix}
    \lambda_1-\lambda_n&&&\\
    &\lambda_2-\lambda_n&& \\
     &&\ddots&\\
     &&&0
   \end{pmatrix} = 0,\]
   则$ f(A) =f(PBP^{-1}) = Pf(B)P^{-1} = 0$.

   任取$ A\in \mathcal{M}_n(\mathbb{K})$,$ \lambda_1,\lambda_2,\ldots,\lambda_n$为$ A$的全体特征值(不一定互异).则存在非异阵$ P$使得
   \[P^{-1}AP = \begin{pmatrix}
    \lambda_1&*&\cdots&*\\
    0&\lambda_2&\cdots&*\\
    \vdots &\vdots&\ddots&\vdots\\
    0&0&\cdots&\lambda_n
\end{pmatrix},\]


则存在$ c_1,c_2,\cdots,c_n \in \mathbb{C}$,$ \forall 0<t\ll 1$,使得 
\[\lambda_1+c_1t, \lambda_2+c_2t,\cdots,\lambda_n+c_nt\text{互不相同},\]
取 
\[A_t = \begin{pmatrix}
    \lambda_1+c_1t&*&\cdots&*\\
    &\lambda_2+c_2t&\cdots&*\\
    &&\ddots&\vdots\\
    &&&\lambda_n+c_nt
\end{pmatrix}\]
显然$ A_t$可对角化,故适合其对应的特征多项式,即有 
\[\forall 0<t\ll 1,(A_t-(\lambda_1+c_1t)I_n)( A_t-( \lambda_2+c_2t)I_n)\cdots(A_t-(\lambda_n+c_nt)I_n) = O,\]
上式两边都是关于$ t$的多项式,从而是连续函数.令$ t\to 0$,可以得到 
\[(A - \lambda_1I_n)(A - \lambda_2I_n)\cdots (A - \lambda_nI_n) = O,\]
故$ A$可对角化.从而 
\[f(A) = O.\]
\end{proof}
\begin{note}
    证明过程可以参考如下视频:
    \href{https://www.bilibili.com/video/BV1mJ411r7ZB?p=70&vd_source=53b67fca8cc409cd3c2da2368246ac2d}{极小多项式}31:30秒的讲解.
\end{note}


%%%%%%%%%%%%%%-------特征值的估计


\section{特征值的估计}


在许多实际问题及理论问题中, 常常需要对矩阵的特征值做出估计. 比如, 特征值是否在单位圆内? 特征值的实部是否小于零? 等等. 我们将在这一节中介绍两个常用的定理.

一般来说, 矩阵的特征值是一些复数. 复数值的估计常常用复平面上的圆来给定范围. 复平面上以 \({z}_{0}\) 为圆心、以 \(r\) 为半径的圆常用 \(\left| {z - {z}_{0}}\right| = r\) 来表示. 该圆内部 (包括圆周) 用 \(\left| {z - {z}_{0}}\right| \leq r\) 来表示,该圆的外部用 \(\left| {z - {z}_{0}}\right| > r\) 来表示.



现设 \(A = {\left( {a}_{ij}\right) }_{n \times n}\) 是一个 \(n\) 阶方阵, \(A\) 的特征多项式为
\[
f\left( \lambda \right) = \left| {\lambda {\mathbf{I}}_{n} - A}\right|
\]
令
\[
{R}_{i} = \mathop{\sum }\limits_{{j \neq i}}^{n}\left| {a}_{ij}\right| = \left| {a}_{i1}\right| + \cdots + \left| {a}_{i,i - 1}\right| + \left| {a}_{i,i + 1}\right| + \cdots + \left| {a}_{in}\right| ,
\]
即 \({R}_{i}\) 为 \(A\) 的第 \(i\) 行元素去掉 \({a}_{ii}\) 后的绝对值之和. 我们有下列 “圆盘定理” (又称 Gerschgorin (戈氏) 圆盘第一定理).



\begin{theorem}[Gerschgorin (戈氏) 圆盘第一定理]
设 \(A\) 是 \(n\) 阶复矩阵, \(A = {\left( {a}_{ij}\right) }_{n \times n}\) ,则 \(A\) 的特征值在复平面上下列圆盘 (又称戈氏圆盘) 中:
\[
\left| {z - {a}_{ii}}\right| \leq {R}_{i},i = 1,2,\cdots ,n.
\]
\end{theorem}
\begin{proof}
    任取 \(A\) 的一个特征值 \({\lambda }_{0}\) ,设 \(\mathbf{\xi }\) 为属于 \({\lambda }_{0}\) 的特征向量,则 \(A\mathbf{\xi } = {\lambda }_{0}\mathbf{\xi }\) . 记 \(\mathbf{\xi }\) 的第 \(i\) 个坐标为 \({x}_{i}\left( {i = 1,2,\cdots ,n}\right)\) ,将 \(A\mathbf{\xi } = {\lambda }_{0}\mathbf{\xi }\)写成线性方程组:
    \[\begin{cases}
        {a}_{11}{x}_{1} + {a}_{12}{x}_{2} + \cdots + {a}_{1n}{x}_{n} = {\lambda }_{0}{x}_{1}, \\ {a}_{21}{x}_{1} + {a}_{22}{x}_{2} + \cdots + {a}_{2n}{x}_{n} = {\lambda }_{0}{x}_{2}, \\ \cdots \cdots \cdots \cdots \\ {a}_{n1}{x}_{1} + {a}_{n2}{x}_{2} + \cdots + {a}_{nn}{x}_{n} = {\lambda }_{0}{x}_{n}. 
    \end{cases},\]
    设 \(\left| {x}_{1}\right| ,\left| {x}_{2}\right| ,\cdots ,\left| {x}_{n}\right|\) 中 \(\left| {x}_{r}\right|\) 最大,从上式可得
    \[
\left( {{\lambda }_{0} - {a}_{rr}}\right) {x}_{r} = {a}_{r1}{x}_{1} + \cdots + {a}_{r,r - 1}{x}_{r - 1} + {a}_{r,r + 1}{x}_{r + 1} + \cdots + {a}_{rn}{x}_{n}.
\]
于是
\begin{align*}
    \left| {{\lambda }_{0} - {a}_{rr}}\right| \left| {x}_{r}\right| &\leq \left| {a}_{r1}\right| \left| {x}_{1}\right| + \cdots + \left| {a}_{r,r - 1}\right| \left| {x}_{r - 1}\right| + \left| {a}_{r,r + 1}\right| \left| {x}_{r + 1}\right| + \cdots + \left| {a}_{rn}\right| \left| {x}_{n}\right|\\
    &\leq \left( {\left| {a}_{r1}\right| + \cdots + \left| {a}_{r,r - 1}\right| + \left| {a}_{r,r + 1}\right| + \cdots + \left| {a}_{rn}\right| }\right) \left| {x}_{r}\right| .
\end{align*}
此即

\[
\left| {{\lambda }_{0} - {a}_{rr}}\right| \left| {x}_{r}\right| \leq {R}_{r}\left| {x}_{r}\right|
\]

但 \(\left| {x}_{r}\right| \neq 0\) ,故

\[
\left| {{\lambda }_{0} - {a}_{rr}}\right| \leq {R}_{r}.
\]
\end{proof}


\begin{example}
    估计下列矩阵特征值的范围:
\[\begin{pmatrix}
    1 & {0.5} & - {0.2} & - 1 \\ {0.3} & 2 & - {0.2} & {1.1} \\ - {0.5} & {0.1} & - 4 & {0.2} \\ - 1 & - {0.1} & {0.2} & 0
\end{pmatrix}.\]
\end{example}
\begin{solution}
写出 4 个戈氏圆盘为

\[
{D}_{1} : \left| {z - 1}\right| \leq {0.5} + {0.2} + 1 = {1.7}
\]

\[
{D}_{2} : \left| {z - 2}\right| \leq {0.3} + {0.2} + {1.1} = {1.6},
\]

\[
{D}_{3} : \left| {z + 4}\right| \leq {0.5} + {0.1} + {0.2} = {0.8}
\]

\[
{D}_{4} : \;\left| z\right| \leq 1 + {0.1} + {0.2} = {1.3}.
\]

若把这 4 个圆盘画在复平面上,则 \({D}_{1},{D}_{2},{D}_{4}\) 连在一起, \({D}_{3}\) 不与其他 3 个圆盘相连.如下图所示:
\begin{figure}[H]
    \centering
    \includegraphics[scale = 0.45]{figure/example_6_12.pdf}
\end{figure}
\end{solution}



若一个戈氏圆盘与另一个相连, 则称这两个圆盘内 (包括圆周) 的区域是连通的. 若几个圆盘连在一起,比如 \({D}_{1}\) 与 \({D}_{2}\) 相连, \({D}_{2}\) 与 \({D}_{4}\) 相连,则称这些相连圆盘内的区域 (包括圆周) 为连通区域. 这几个圆盘称为连通圆盘.


\begin{definition}
    若$ n$个戈氏圆盘连在一起,则称相连的区域为连通区域,称相连的圆盘为连通区域.
\end{definition}

在阐述戈氏圆盘第二定理之前, 我们先引用如下的结果, 即多项式的根关于多项式系数的连续性.


\begin{theorem}
设
\[
f\left( x\right) = {a}_{n}{x}^{n} + {a}_{n - 1}{x}^{n - 1} + \cdots + {a}_{1}x + {a}_{0}
\]
是 \(n\) 次复系数多项式,则 \(f\left( x\right)\) 的 \(n\) 个根 \({\lambda }_{1},{\lambda }_{2},\cdots ,{\lambda }_{n}\) 都是 \({a}_{n},{a}_{n - 1},\cdots ,{a}_{1},{a}_{0}\) 的连续函数.
\end{theorem}
% \begin{proof}
    
% \end{proof}
我们先解释一下定理的含义. 首先 \(f\left( x\right)\) 的每个根 \({\lambda }_{i}\) 都是 \({a}_{n},{a}_{n - 1},\cdots ,{a}_{1},{a}_{0}\) 的函数,记为 \({\lambda }_{i}\left( {{a}_{n},{a}_{n - 1},\cdots ,{a}_{1},{a}_{0}}\right)\) ,它关于 \({a}_{n},{a}_{n - 1},\cdots ,{a}_{1},{a}_{0}\) 连续意味着,如果有另一多项式

\[
\widetilde{f}\left( x\right) = {\widetilde{a}}_{n}{x}^{n} + {\widetilde{a}}_{n - 1}{x}^{n - 1} + \cdots + {\widetilde{a}}_{1}x + {\widetilde{a}}_{0},
\]

它的根中有一个 \({\lambda }_{i}\left( {{\widetilde{a}}_{n},{\widetilde{a}}_{n - 1},\cdots ,{\widetilde{a}}_{1},{\widetilde{a}}_{0}}\right)\) ,使得对任意给定的 \(\varepsilon > 0\) ,可以找到 \(\delta >\) 0,当 \(\left| {{\widetilde{a}}_{j} - {a}_{j}}\right| < \delta \left( {j = n,n - 1,\cdots ,1,0}\right)\) 时,就有

\[
\left| {{\lambda }_{i}\left( {{\widetilde{a}}_{n},{\widetilde{a}}_{n - 1},\cdots ,{\widetilde{a}}_{1},{\widetilde{a}}_{0}}\right) - {\lambda }_{i}\left( {{a}_{n},{a}_{n - 1},\cdots ,{a}_{1},{a}_{0}}\right) }\right| < \varepsilon .
\]



\begin{theorem}[戈氏圆盘第二定理]
    设矩阵 \(A = {\left( {a}_{ij}\right) }_{n \times n}\) 的 \(n\) 个戈氏圆盘分成若干个连通区域,若其中一个连通区域含有 \(k\) 个戈氏圆盘,则有且只有 \(k\) 个特征值落在这个连通区域内 (若两个戈氏圆盘重合, 需计重数; 又若特征值为重根, 也计重数).
\end{theorem}
\begin{proof}
    设$ A=(a_{ij})_{n\times n}$,考虑如下矩阵
    \[A(0)= \begin{pmatrix}
        {a}_{11} & & & \\ & {a}_{22} & & \\ & & \ddots & \\ & & & {a}_{nn}
    \end{pmatrix},A(t) = \begin{pmatrix}
        {a}_{11} & t{a}_{12} & \cdots & t{a}_{1n} \\ t{a}_{21} & {a}_{22} & \cdots & t{a}_{2n} \\ \vdots & \vdots & & \vdots \\ t{a}_{n1} & t{a}_{n2} & \cdots & {a}_{nn}
    \end{pmatrix},\]
    则有$ A(1) = A$.

    由戈氏圆盘第一定理知,矩阵 \(A\left( t\right)\) 的特征值落在下列圆盘中:
    \[
    \left| {z - {a}_{ii}}\right| \leq t{R}_{i},i = 1,2,\cdots ,n
    \]
    其中 \({R}_{i}\) 为 \(A\) 的第 \(i\) 行元素去掉 \({a}_{ii}\) 后的绝对值之和.

    让 \(t\) 从 0 变到 1,$ A(t)$的特征值都落在$ A$的$ n$个戈氏圆盘内.
    \[
    \left| {z - {a}_{ii}}\right| \leq {R}_{i},i = 1,2,\cdots ,n.
    \]
    $ A(t)$的特征多项式的系数都是$ t$的多项式,从而关于$ t$连续,由上述定理知$ A(t)$的特征多项式的根关于系数连续,从而关于$ t$连续.

    若 \(k\) 个圆盘组成一个连通的区域,由于 \(A\left( 0\right)\) 的 \(k\) 个特征值 (即 \({a}_{ii}\) 中的 \(k\) 个元) 总在这 \(k\) 个圆盘内,故 \(A\) 在这 \(k\) 个圆盘内至少有 \(k\) 个特征值,即它们不可能跑到与这 \(k\) 个圆盘不相连通的圆盘内. 由于这一结论对任一圆盘连通区域都对,故这 \(k\) 个圆盘组成的连通区域内只有 \(k\) 个 \(A\) 的特征值.
\end{proof}


\begin{example}
    设$ A = (a_{ij})_{n\times n}$满足
    \[0\ll a_{11}\ll a_{22}\ll \cdots \ll a_{nn}\]
    证明:$ A$ 可对角化.
\end{example}
\begin{solution}
    由\[0\ll a_{11}\ll a_{22}\ll \cdots \ll a_{nn}\]
   可知,$ A$的特征值所在的戈氏圆盘两两互不相交,由戈氏圆盘第二定理可知$ A$存在$ n$个不同的特征值,故$ A$可对角化.
\end{solution}


\begin{example}
	设$A$为$n$阶方阵,有$A^2 -A-3I_n = 0$,求证$A-2I_n$非异.
\end{example}
\begin{solution}
    在例题\ref{example:3.24}中,使用凑因子法和线性方程求解法解决了这个题目,下面使用新的方法进行求解.

    \fbox{互素多项式性质}

    容易验证$ (x^2 - x - 3, x-2)=1$,分别记为$ f(x),g(x)$,并且有$ f(A) = O$,则$ g(A)$可逆.

    \fbox{特征值}

    用反证法,设$ A-2I_n$不可逆,容易看出2是$A-2I_n $的特征值,由于$ A$适合$ f(x)$,根据命题\ref{proposition:6.1.2}($ A$适合$ f(x)$,则$ A$的任意特征值$ \lambda$也适合$ f(x)$)知$ 2$应该适合$ x^2 - x - 3$,但代入得到-1,矛盾!故$A-2I_n$可逆.
\end{solution}

\begin{example}
    设$ A$为4阶方阵,满足$ \mathrm{tr}(A^i) = i,i=1,2,3,4$,求$ |A|$.
\end{example}
\begin{solution}
    设$ A$的特征值为$ \lambda_1,\lambda_2,\lambda_3,\lambda_4$.则$ A^i$ 的特征值为$ \lambda_1^i,\lambda_2^i,\lambda_3^i,\lambda_4^i$.

    根据题目条件有
    \[\sum_{k=1}^{4}\lambda_k^i = i,\]
    根据牛顿公式即有$ s_1 = 1, s_2 = 2, s_3 = 3, s_4 = 4$.

    $ |A|$即为$ \lambda_1\lambda_2\lambda_3\lambda_4$,将$ \lambda_i$看作未定元的话,$ |A| = \sigma_4$(初等对称多项式).

    根据牛顿公式,当$ k\leq n = 4$时,有
    \[s_k - s_{k-1}\sigma_1 + s_{k-2}\sigma_2 -\dots + (-1)^{k-1}s_1\sigma_{k-1} + (-1)^k k\sigma_k = 0, \]
依次令$ k= 1,2,3,4$即可得到
\[\sigma_1 = 1,\sigma_2 = \frac{1}{2},\sigma_3 =\frac{1}{6},\sigma_4 = \frac{1}{24},\]
故 
\[|A| = \frac{1}{24}.\]
\end{solution}
\begin{note}
    也可以直接使用下面的结论计算$ \sigma_4$.
    \[\sigma_k = \frac{1}{k!} 
    \begin{vmatrix}
    s_1 & 1 & 0 & \cdots & 0 \\
    s_2 & s_1 & 2 & \cdots & 0 \\
    \vdots & \vdots & \vdots &  & \vdots \\
    s_{k-1} & s_{k-2} & s_{k-3} & \cdots & k-1 \\
    s_k & s_{k-1} & s_{k-2} & \cdots & s_1
    \end{vmatrix},\]
于是有 
\[|A| = \frac{1}{4!}\begin{vmatrix}
    1&1&0&0\\
    2&1&2&0\\
    3&2&1&3\\
    4&3&2&1
\end{vmatrix} = \frac{1}{24}.\]
\end{note}




\begin{example}
    设$ A,B$分别为$ m,n$阶方阵,且$ A,B$无公共特征值,证明:矩阵方程$ AX=XB$只有零解.
\end{example}
\begin{solution}
    设$ f(\lambda) = |\lambda I-A|$是$ A$的特征多项式,由凯莱-哈密顿定理可知
    \[f(A) = O,\]
    由于 
    \[A^2X = A(AX) = A(XB)=(AX)B = XB^2,\]
    可以得到 
    \[O=f(A)X = Xf(B),\]
    只需证明$ f(B)$可逆即可.

    设$ B$的特征值为$ \mu_1, \mu_2,\cdots,\mu_n$,则$ f(B)$的特征值为$ f(\mu_1), f(\mu_2),\cdots,f(\mu_n)$.由于$ A,B$无公共特征值,于是$ f(\mu_i)\neq 0,1\leq i\leq n$.从而$ f(B)$可逆.故矩阵方程$ AX=XB$只有零解.
\end{solution}
\begin{note}
    证明$ f(B)$可逆的另一方法.
    
    设$ B$的特征多项式为$ g(\lambda)$,由于$ A,B$无公共特征值,即$ f(\lambda) ,g(\lambda)$无公共根,于是有 
    \[(f(\lambda),g(\lambda))=1,\]
    即存在$ u(\lambda), v(\lambda)$满足
    \[f(\lambda)u(\lambda) + g(\lambda)v(\lambda) = 1,\]
    将$ \lambda = B$代入以及凯莱-哈密顿定理,得
    \[f(B)u(B) =I,\]
    从而$ f(B)$可逆.
\end{note}

下面例题是上述例题的一个应用.
\begin{example}
    设$ A,B$均为$ n$阶方阵,且$ A,B$的特征值均大于0,$ A^2 = B^2$.证明:$ A=B$.
\end{example}
\begin{proof}
    只需证明$ A-B$为零矩阵即可.
    \[A(A-B) = A^2 - AB = B^2 - AB = (A-B)(-B),\]
    由于$ A,-B$没有公共特征值,由上述例题知上面的矩阵方程只有零解(将$ A-B$看作未定元),即
    \[A=B.\]
\end{proof}


\begin{example}
    设$ A$为$ n$阶方阵,且特征值全为偶数,证明:
    \[X+AX = XA^2,\]只有零解.
\end{example}
\begin{solution}
    即证
    \[(A+I)X = XA^2\]只有零解.

    由于$ A+I$与$ A^2$没有公共的特征值,故该矩阵方程只有零解.
\end{solution}

\begin{example}
    设 $ A$为$ n$阶方阵,适合多项式
    \[f(x) = a_mx^m+ a_{m-1}x^{m-1}+\cdots + a_1x + a_0,\]
    其中 
    \[|a_m|> \sum_{i=0}^{m-1}|a_i|,\]
    证明:\[2X+AX = XA,\]
    只有零解.
\end{example}
\begin{solution}
    任取$ A$的特征值$ \lambda_0$,断言$|\lambda_0|<1 $.

    用反证法,设$ |\lambda_0|\geq 1$,由于 
    \[f(\lambda_0) = a_m\lambda_0^m + a_{m-1}\lambda_0^{m-1}+\cdots + a_1\lambda_0 + a_0 = 0,\]
    得到 
    \[a_m = -\frac{a_{m-1}}{\lambda_0}-\cdots -\frac{a_1}{\lambda_0^{m-1}}-\frac{a_0}{\lambda_0^m},\]
    于是得到 
    \[|a_m|\leq \sum_{i=0}^{m-1}|a_i|, \]
    矛盾.从而$ A$与$ A+2I_n$没有公共的特征值,故矩阵方程只有零解.
\end{solution}





\begin{example}
    设$ A,B$为数域$ \mathbb{K}$上的$ m,n$阶方阵,且$ A,B$无公共特征值,则对$ \forall C\in \mathcal{M}_{m\times n}(\mathbb{K})$,矩阵方程 
    \[AX-XB=C\]
    有唯一解.
\end{example}
\begin{solution}
    构造如下的线性变换:
    \begin{align*}
        \varphi:&\mathcal{M}_{m\times n}(\mathbb{K})\rightarrow \mathcal{M}_{m\times n}(\mathbb{K}),\\
        &X\mapsto AX-XB.
    \end{align*}
    由上述例题知$ \operatorname{Ker}\varphi = \{0 \}$,从而$ \varphi$是单的,故$ \varphi$是满的,是一个线性同构.

    故$ \forall C\in \mathcal{M}_{m\times n}(\mathbb{K})$,存在唯一的$ X_0\in\mathcal{M}_{m\times n}(\mathbb{K}) $,使得 
    \[\varphi(X_0) = C = AX_0-X_0B.\]
    即矩阵方程 
    \[AX-XB=C\]
    有唯一解.
\end{solution}


\begin{example}
    设$ A,B$分别为$ m,n$阶方阵,且$ A,B$无公共特征值,若$ A,B$可对角化,证明:
    \[M = \begin{pmatrix}
        A&C\\
        O&B
    \end{pmatrix}\]可对角化.
\end{example}
\begin{proof}
    一定存在$ X_0$,使得
    \[AX_0-X_0B =C,\]
    由于 
    \[\begin{pmatrix}
        I_m&X_0\\
        O&I_n
    \end{pmatrix}\begin{pmatrix}
        A&C\\
        O&B
    \end{pmatrix}\begin{pmatrix}
        I_m&-X_0\\
        O&I_n
    \end{pmatrix} = \begin{pmatrix}
        A&C+X_0B-AX_0\\
        O&B
    \end{pmatrix}=\begin{pmatrix}
        A&O\\
        O&B
    \end{pmatrix},\]
    即$ M\sim \begin{pmatrix}
        A&O\\
        O&B
    \end{pmatrix}$,由于$ A,B$均可对角化,故$ \begin{pmatrix}
        A&O\\
        O&B
    \end{pmatrix}$可对角化,从而$ M$可对角化.
\end{proof}

